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ZUSAMMENFASSUNG 



Verfahren zum Steuern von Geraten mittels SprachsignaJen, insbesondere bei 
Kraftfahrzeugen 



3 



Die Erfindung betrifF ein Verfahren zum Steuern von Funktionseinheiten eines Krafitfahr- 
5 zeugs oder von in einem Kraftfahrzeug angeordneten Geraten (la, lb) mittels Sprach- 
signalen, bei dem 

im Kraftfahrzeug auftretende akustische Signale, die vom Betriebszustand und/oder der 
Betriebsumgebung des Krafifahrzeugs abhangige Storsignalanteile und gegebenenfalls 
Sprachsignalanteile enthalten, einem Spracherkennungssystem (3) zugefiihrt werden 
10 und 

das Spracherkennungssystem (3) akustische Referenzen (8) verwendet, die in 
Abhangigkeit von detektierten Betriebszustands- und/oder Betriebsumgebungsinforma- 
tionen ausgewahlt und/oder adaptlert werden. 



15 Die Erfindung ist nicht auf die Sprachsteuerung im Bereich Kraftfahrzeuge beschrankt. 



Fig. 1 




FIG. 1 
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RFSCHREIBUNG 

Verfahren zum Steuern von Geraten mittels Sprachsignalen, insbesondere bei Kraftfahr- 
zeugen 

Die Erfindung betrifft ein Verfahren zum Steuern von Funktionseinheiten eines Kraft- 
fahrzeugs oder von in einem Kraftfahrzeug angeordneten Geraten mittels Sprachsignalen. 
Die Erfindung betrifft auch eine Gerateanordnung zur Durchfuhrung dieses Verfahrens. 

Grundsatzlich lasst sich der erfindungsgemafie Ansatz, bei beliebigen Geraten mit einer 
Sprachsieuerung anwenden, bei denen dem Gerat zugefuhrte Storsignalanteile vom 
Betriebszustand und/oder der Betriebsumgebung des jeweiligen Gerats abhangen. 

Beim Steuern von Funktionseinheiten eines Kraftfahrzeugs (beispielsweise Steuern eines 
Scheibenwischerantriebs) und von in einem Kraftfahrzeug angeordneten Geraten (bei- 
spielsweise Steuern eines Radios, eines Navigationssystems oder eines Mobiltelefons) 
mittels von einem Spracherkennungssystem zu erkennenden Sprachsignalen miissen 
Storsignale berucksichtigt werden, die vom Betriebszustand und/oder der Betriebsum- 
gebung des Kraftfahrzeugs abhangen, um eine fehlerhafte Steuerung der Funktionsein- 
heiten bzw. Gerate zu vermeiden. 

Aus der JP 57-30913 (A) ist es bekannt, sowohl die Geschwindigkeit eines Kraftfahrzeugs 
als auch den eingelegten Gang mittels Sensoren zu detektieren. Aus den Sensorsignalen 
wird eine Rauschsignalreferenzspannung erzeugt, die ein Mafi fur den aktuellen Rausch- 
pegel (Storsignalpegel) im Kraftfahrzeug angibt. Die Rauschsignalreferenzspannung wird 
mit der Ausgangsspannung einer Spracheingabeeinheit verglichen. Beim Vorhandensein 
von Sprachsteuersignalen empfangt die Spracheingabeeinheit akustische Signale, die sowohl 
Storsignalanteile als auch Sprachsignalanteile enthalten, was sich in der Ausgangsspannung 
der Spracheingabeeinheit widerspiegelt. Die Ausgangsspannung der Spracheingabeeinheit 
wird mit der Rauschsignalreferenzspannung verglichen. Falls die Ausgangsspannung der 
Spracheingabeeinheit grofier als die Rauschsignalreferenzspannung ist, wird ein Spracher- 
kennungssystem aktiviert. Falls die Ausgangsspannung der Spracheingabeeinheit unter die 



<s 

PHDE000126 



Rauschsignalreferenzspannung abfaillt, wird das Spracherkennungssystem deaktiviert. 

Aus der JP 6-83387 (A) ist es bekannt, bei einem Kxaftfahrzeug einen Vibrationssensor 
vorzusehen, um das Vibrieren des Kraftfahrzeugs als Rauschquelle abzuschatzen. Im 
5 Kraftfahrzeug ist auSerdem ein erstes Mikrofon angeordnet, um im Kraftfahrzeug- 

innenraum vorhandene Storsignale zu detektieren. Ein zweites Mikrofon im Kraftfahrzeug- 
innenraum dient zur Detektion von Sprachsignalen, die mit Hilfe eines Spracherkennungs- 
systems erkannt werden soUen. Das zweite Mikrofon empfangt allerdings akustische 
Signale, die neben Sprachsignalanteilen auch Storsignalanteile enthalten. Mit Hilfe der 
10 Signale des Vibrationssensors, der Mikrofonsignale des ersten Mikrofons und zweier 

adaptiver Filter wird der Storsignalpegel in den vom zweiten Mikrofon erzeugten Mikro- 
fonsignalen reduziert; die so erzeugten Signale mit reduzierten Storsignalanteilen werden 
einem Spracherkennungssystem zugefiihrt. 

15 Der Erfindung liegt die Aufgabe zugrunde, beim eingangs genannten Verfahren Storsignal- 
einflussen wirkungsvoU entgegenzuwirken. 

Die Aufgabe wird fiir Kraftfahrzeuganwendungen dadurch gelost, dass 

im Kraftfahrzeug auftretende akustische Signale, die vom Betriebszustand des 
20 Kraftfahrzeugs abhangige Storsignalanteile und gegebenenfalls Sprachsignalanteile 

enthalten, einem Spracherkennungssystem zugefuhrt werden und 
das Spracherkennungssystem akustische Referenzen verwendet, die in Abhangigkeit 
von detektierten Betriebszustands- und/oder Betriebsumgebungsinformationen 
ausgewahit und/oder adaptiert werden. 

25 

Das erfindungsgemafie Verfahren hat den Vorteil, dass auf der Basis haufig leicht zu 
ermittelnder Betriebszustands- oder Betriebsumgebungsinformationen eine geeignete 
Anpassung des Satzes fiir die automatische Spracherkennung zu verwendender akustischer 
Referenzen erfolgt. Bei einem ICraftfahrzeug konnen Betriebszustands- oder Betriebsum- 
30 gebungsinformationen beispielsweise aus einem Bordcomputer ausgelesen werden, der mit 
ein oder mehreren Detektoren zur Ermittlung des Betriebszustands oder der Betriebs- 
umgebung des Kraftfahrzeugs verbunden ist. Ausgehend vom ermittelten Betriebszustand 
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bzw. der ermittelten Betriebsumgebung werden indirekt die Storsignalanteile geschatzt. 
Eine Extraktion der Storsignalanteile aus den dem Spracherkennungssystem zugefuhrten 
akustischen Signalen kann somit iiberfliissig gemacht werden. Eine Schatzung der Stor- 
signalanteile kann so erfolgen, dass vorgegebene akustische Referenzen in Abhangigkeit 
5 vom detektierten Betriebszustand und/oder von der detektierten Betriebsumgebung 
selektiert werden, urn Sprachpausen zu modellieren, in denen die akustischen Signale 
lediglich Storsignalanteile aufweisen. Korrespondierend dazu lasst sich ein Vorliegen von 
Sprachsignalanteilen detektieren, was dann der Fall ist, wenn keine Sprachpause vorliegt; 
auf diese Weise kann ein fehlerhaftes Detektieren des Vorliegens von Sprachsignalanteilen 
10 bei der Anderung der Storsignalanteile vermieden werden. Durch die erfindungsgennafien 
Mal?nahmen wird die Zuverlassigkeit und Benutzungssicherheit des Gesamtsystems 
erhoht. 

Auch Sprachsignalanteile reprasentierende akustische Referenzen lassen sich mittels der 
15 detektierten Betriebszustands- bzw. Betriebsumgebungsinformationen so anpassen, das 
diesen iiberlagerte Storsignalanteile durch die akustischen Referenzen reprasentiert sind. 

Eine zur Durchfuhrung des erfindungsgennafien Verfahrens geeignete Anordnung gibt 
Patentanspruch 8 an. 

20 

Fiir beliebige sprachgesteuerte Gerate wird die Aufgabe in entsprechender Weise gemafi 
den Merkmalen der Patentanspriiche 8 (Verfahren) und 9 (Anordnung) gelost. 

Ausfuhrungsbeispiele der Erfindung werden nachstehend anhand der Zeichnungen naher 
25 erlautert. Es zeigen: 

Fig. 1 die wesentlichen Komponenten zur Durchfuhrung des erfindungsgemafien 

Verfahrens in einem Kraftfahrzeug, 
Fig.2 eine erste Moglichkeit zur Erzeugung einer akustischen Referenz fiir einen 
30 Sprachpausenabschnitt und 

Fig.3 eine zweite Moglichkeit zur Erzeugung einer akustischen Referenz fiir einen 

Sprachpausenabschnitt. 
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Das in Fig. 1 gezeigte Blockschaltbild beschreibt die Steuerung von Geraten oder 
Funktionseinheiten in einem Kraftfahrzeug. Die Gerate/Funktionseinheiten sind hier 
beispielhaft durch die Blocke la und lb dargestellt. Die Steuerung erfolgt mittels Sprach- 
5 signalen, die iiber ein Mikrofon 2 einem autonnatischen Spracherkennungssystem 3 zuge- 
fiihrt werden, dessen Erkennungsergebnisse von einer Funktionseinheit 4 ausgewertet 
werden, die eine Umsetzung in an die Gerate/Funktionseinheiten la und lb zu liefernde 
elektrische Steuersignale bewirkt. 

10 Eine Funktionseinheit 5 kennzeichnet die Extraktion von Merkmalen von vom Mikrofon 
2 gelieferten Mikrofonsignalen, wobei Merkmale fiir die einzelnen aufeinanderfolgenden 
Signalabschnitte iiblicherweise zu Merkmalsvektoren zusammengefasst werden. Bei der 
Merkmalsanalyse wird ein akustisches Signal beispielsweise abgetastet, quantisiert und 
schliefihch noch einer Cepstral analyse unterzogen. Dabei erfolgt eine Aufteilung des 

15 akustischen Signals in aufeinanderfolgende Rahmen, die sich teilweise iiberlappen; fiir 
jeden Rahmen wird ein Merkmalsvektor gebildet. Die Merkmalsvektorkomponenten 
werden durch die ermittelten Cepstralwerte gebildet. Funktionsblock 6 beschreibt iibliche 
Vergleichprozeduren, bei denen die Merkmalsvektoren mittels iiblicher Suchprozeduren 
mit einem akustischen Model! 7 verglichen werden, woraus sich das der Funktionseinheit 

20 4 zugefiihrte Spracherkennungsergebnis ergibt. Dem Vergleich 6 und dem akustischen 

Modell 7 liegen sogenannte Hidden-Markov-Modelle zugrunde. Das akustische Modell 7 
weist akustische Referenzen 8 und ein Lexikon 9 auf. Eine Wortuntereinheit von jeweils 
einem oder mehreren Phonemen ist dabei jeweils eine akustische Referenz zugeordnet. 
Durch das Lexikon 9 sind entsprechend den im Lexikon zusammengefassten Worten 

25 zugehorige Folgen von Wortuntereinheiten definiert. 

Das Spracherkennungssystem 3 weist eine Schnittstelle 10 auf, die eine Verbindung zu 
einem Bordcomputer 1 1 des Krafifahrzeugs herstellt. Der Bordcomputer 1 1 wiederum ist 
durch eine Verbindung 12a mit mindestens einem Detektor 13 verbunden, der Betriebszu- 
30 stands- und/oder Betriebsumgebungsinformationen detektiert und dem Bordcomputer 1 1 
zufuhrt, der entsprechende Daten speichert. Die Betriebszustands- und/oder Betriebsum- 
gebungsdaten werden der Schnittstelle 10 zugefuhn, die diese Daten an eine Funktionsein- 
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heit 12 weiterleitet, die zur Anpassung der akustischen Referenzen 8 an den jeweils 
detektierten Betriebszustand bzw. an die detektierte Betriebsumgebung anpasst. 
Grundsatzlich kann die Schnittstelle 10 auch ohne Zwischenschaltung eines Bord- 
computers mit dem Detektor 13 gekoppelt sein (Verbindung'l2b). Ein detektierter 
5 Betriebszustand ware bspw. der Betriebszustand eines Lufters oder auch die jeweiiige 
Geschwindigkeit des Kraftfahrzeuges. Die Betriebsumgebungsdaten konnten bspw. 
Regenwetter indizieren oder auch den aktuellen Bodenbelag, auf dem das Kraftfahrzeug 
fahrt. 

10 Vorzugsweise konnen durch das beschriebene Systenn Sprachpausenmodelle mit geeigneten 
akustischen Referenzen 8 erzeugt werden. Fur Sprachpausen enthah ein vom Mikrofon 2 
empfangenes akustisches Signal ledigUch Storsignalanteile, jedoch keine Sprachsignal- 
anteile, mit denen eine Steuerung der Gerate/Funktionseinheiten la oder lb erfolgen soil. 

15 Eine Ausgestaltung der Erfindung besteht darin, in Abhangigkeit von einem detektierten 
Betriebszustand oder einer detektierten Betriebsumgebung das Vokabular des Spracher- 
kennungssystems 3, das durch das Lexikon 9 zusammengefasst ist, auf eine Untermenge 
von Wonen einzuschranken, die als v^irksame Sprachsteuersignale zur Verfugung stehen 
(Funktionsblock 13). Bei diesem Ansatz werden die fur die Vergleichsprozeduren des 

20 Funktionsblockes 6 erforderUchen Rechenoperationen reduziert. 

Fig.2 zeigt ein Beispiel zur Erzeugung einer akustischen Referenz 8a aus der Menge der 
akustischen Referenzen 8. Mittels der Funktionseinheit 12 wird hier aus einer Menge a 
priori vorgegebener und vordefinierter Basisreferenzen 20-1, 20-2 bis 20-n fur Sprach- 

25 pausenabschnitte diejenige Basisreferenz ausgewahlt, die schon vor der Inbetriebnahme des 
Spracherkennungssystems 3 demjenigen Betriebszustand bzw. derjenigen Betriebsum- 
gebung zugeordnet wurde, und die dem aktuell detektierten Betriebszustand bzw. der 
aktuell detektierten Betriebsumgebung am besten entspricht. Die Auswahi einer Basis- 
referenz ist symbolisch durch einen SchaJter 21 dargestelh. Funktionsblock 22 fasst eine 

30 optionale Adaption der selektierten Basisreferenz zusammen, um eine genauere 

Modellierung des detektierten Betriebszustandes bzw. der detektierten Betriebsumgebung 
zu erreichen und so die zu verwendende akustische Referenz 8a fiir den betreffenden 
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Sprachpausenabschnitt zu bilden. Wenn bspw. eine akustische Basisreferenz einem 
Storsignalanteil entspricht. der sich aus einem Regengerausch ableitet. wird bei der 
Adaption gemaf? Block 22 eine Anpassung an die detektierte Starke des Regens erfolgen, 
wobei die Starke des Regens mit einem entsprechenden Stor-/Rauschsignalpegel im 
5 Kraftfahrzeug korrespondiert. 

Fig. 3 zeigt eine weitere Variante zur Erzeugung der akustischen Referenz 8a fur einen 
Sprachpausenabschnitl. Wie schon in Fig.2 sind a priori vorgegebene Basisreferenzen fur 
Sprachpausenabschnitte (Blocke 30-1, 30-2 bis 30-n) vorgesehen, mittels derer die 

10 akustische Referenz 8a gebildet wird. In der Ausfuhrungsform gemafi Fig.3 wird alierdings 
nicht eine einzelne Basisreferenz selektiert. Es werden vielmehr alie Basisreferenzen einer 
Funktionseinheit 31 zugefiihrt, in der zunachst in Abhangigkeit von dem jeweils 
detektierten Betriebszustand bzw. der jeweils detektierten Betriebsumgebung eine 
Gewichtung und ggf. auch eine Adaption der Basisreferenzen durchgefuhrt wird (Blocke 

15 32-1, 32-2 bis 32-n). Die so gebildeten gewichteten/adaptierten Basisreferenzen werden 
schliefilich in einer Einheit 33 zu einer einzigen akustischen Referenz kombiniert, welche 
die zu verwendende akustische Referenz 8a fur den betrachteten Sprachpausenabschnitl ist. 

Die Erfindung ist nicht auf die Sprachpausenmodellierung beschrankt. Grundsatzlich 
20 konnen auch die Wortuntereinheiten entsprechenden akustischen Referenzen 8 in 

entsprechender Weise an einen detektierten Betriebszustand bzw. eine detektierte Betriebs- 
umgebung des Kraftfahrzeugs angepasst werden. Die akustische Referenz 8a wurde dann 
die Grundlage fur die Adaption von Wortunterabschnitten reprasentierenden akustischen 
Referenzen 8 bilden, um Storsignalanteile eines vom Mikrofon 2 aufgenommenen 
25 akustischen Signals zu modellieren. 

Daruber hinaus ist die beschriebene Erfindung nicht auf den Einsatz in Kraftfahrzeugen 
beschrankt. Die Erfindung ist grundsatzlich anwendbar auf alle mittels Sprachsteuerung 
gesteuerten Gerate, bei denen Sprachsteuersignalen Storsignale uberlagert sind, die sich 
30 indirekt durch Detektion des Betriebszustandes bzw. der Betriebsumgebung eines solchen 
Gerates bestimmen lassen. 
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1. Verfahren zum Steuern von Funktionseinheiten eines Krafifahrzeugs oder von in einem 
KraftfaKrzeug angeordneten Geraten (la, lb) mittels Sprachsignalen, bei dem 

im Kraftfahrzeug auftretende akustische Signale, die vom Betriebszustand und/oder der 
Betriebsumgebung des Krafifahrzeugs abhangige Storsignalanteile und gegebenenfalls 
Sprachsignalanteile enthalten, einem Spracherkennungssystem (3) zugefuhrt werden 
und 

das Spracherkennungssystem (3) akustische Referenzen (8) verwendet, die in 
Abhangigkeit von detektierten Betriebszustands- und/oder Betriebsumgebungsinforma- 
tionen ausgewahit und/oder adaptiert werden. 



2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet , 

dass akustische Basis referenzen (20-1 ... 20-n, 30-1 ... 30-n) in Abhangigkeit vom 
Betriebszustand und/oder der Betriebsumgebung des Krafifahrzeugs zur Verwendung fiir 
15 eine Sprachpausenmodellierung selektiert werden. 

3. Verfahren nach Anspruch 2, 
dadurch gekennzeichnet , 

dass eine Adaption (22, 32-1 ... 32-n) der selektierten akustischen Basisreferenzen in 
20 Abhangigkeit vom Betriebszustand und/oder der Betriebsumgebung des Krafifahrzeugs 
vorgesehen ist. 



25 
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4. Verfahrcn nach Anspruch 1, 
dadurch gekennzeichnet , 

dass zur Sprachpausenmodellierung akustische Basisreferenzen in Abhangigkeit vom 
Betriebszustand und/oder der Betriebsumgebung des Kraftfahrzeugs miteinander 
5 kombiniert (33) werden. 

5. Verfahren nach einem der Anspriiche 1 bis 4, 
dadurch gekennzeichnet , 

dass Betriebszustandsdaten und/oder Betriebsumgebungsdaten des Kraftfahrzeugs aus 
10 einem Bordcomputer (1 1) des Kraftfahrzeugs ausgelesen und/oder mittels ein oder 
i|p mehrerer am Krafifahrzeug nnontierter Detektoren (13) ernnittelt werden. 

6. Verfahren nach einem der Anspriiche 1 bis 5, 
dadurch gekennzeichnet , 

15 dass in Abhangigkeit von den detektierten Betriebszustands- und/oder Betriebsumgebungs- 
informationen des Kraftfahrzeugs diejenigen Teile des Vokabulars (9) des 
Spracherkennungssystems (3) bestimmt werden (13), die zum Steuern von 
Funktionseinheiten des Kraftfahrzeugs oder von im Kraftfahrzeug angeordneten Geraten 
(la, lb) wirksame Sprachsteuersignale darstellen. 

20 

7. Anordnung zum Steuern von Funktionseinheiten eines Kraftfahrzeugs oder in einem 
Kraftfahrzeug angeordneter Gerate (la, lb) mittels Sprachsignalen mit 

mindestens einem Mikrofon (2) zur Umwandlung von im Kraftfahrzeug auftretenden 
akustischen Signalen, die vom Betriebszustand und/oder der Betriebsumgebung des 

25 Kraftfahrzeugs abhangige Storsignalanteile und gegebenenfalls Sprachsignalanteile 

enthalten, in Mikrofonsignale und 
- einem mit dem Mikrofon (2) gekoppelten Spracherkennungssystem (3) zur Erkennung 
von Sprachsignalanteilen der akustischen Signale, wobei eine Auswahl und/oder ein 
Adaptieren von vom Spracherkennungssystem (3) verwendeten akustischen Referenzen 

30 (8) in Abhangigkeit von detektierten Betriebszustands- und/oder Betriebsumgebungs- 

informationen vorgesehen ist. 
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8. Verfahren zum Steuern eines Gerats mittels Sprachsignalen. bei dem 

. akustische Signale, die vom Betriebszustand des Gerats und/oder der 

Betriebsumgebung des Gerats abhangige Storsignalanteile und gegebenenfalls 
Sprachsignalanteile enthalten, einem Spracherkennungssystem zugefuhrt werden und 
5 . das Spracherkennungssystem akustische Referenzen verwendet, die in Abhangigkeit 
von detektierten Betriebszustands- und/oder Betriebsumgebungsinformationen des 
Gerats ausgewahlt und/oder adaptiert werden. 

9. Anordnung mit einem mittels Sprachsignalen steuerbaren Gerats, bei dem 
10 - akustische Signale, die vom Betriebszustand des Gerats und/oder der 

Betriebsumgebung des Gerats abhangige Storsignalanteile und gegebenenfalls 
Sprachsignalanteile enthalten, einem Spracherkennungssystem zugefuhrt werden und 
- das Spracherkennungssystem akustische Referenzen verwendet, die in Abhangigkeit 
von detektierten Betriebszustands- und/oder Betriebsumgebungsinformationen des 
1 5 Gerats ausgewahlt und/oder adaptiert werden. 
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FIG. 2 
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FIG. 3 
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